NLP方向概述

Catalogue
  1. 一、核心技术
    1. 1.1 预处理技术
    2. 1.2 语义理解技术
    3. 1.3 语言生成技术
    4. 1.4 高级技术方向
  2. 二、典型应用场景
  3. 三、核心项目
  4. 四、 NLP 技术的核心价值
  5. 五、NLP方向系统介绍
    1. 5.1 基础理论
      1. 1.词向量相关
      2. 2.语言模型基础
      3. 3.文本预处理
    2. 5.2 深度学习与预训练模型(核心)
      1. 1.Transformer核心
      2. 2.预训练模型系列
    3. 3.下游任务适配
    4. 5.3 核心技术
    5. 5.4 项目实战&工程能力

NLP作为人工智能(AI)的核心分支和AI发展的重要基石,其应用形态随着2023年大模型技术的发展发生了质的变化。2023 年前,以分词、句法分析等基础任务落地各业务场景;2023 年,大模型爆发,引爆 AI (生成式)创作革命;2025 年, AI 已具备更成熟的思考与决策能力。

而NLP基础任务旨在让计算机理解、分析、生成和交互人类语言。包括 基础语言处理、语义理解分析、语言生成、人机交互与实用拓展类等。

本文的目的:

  1. 简单介绍下NLP做的事,在大模型爆发前和之后NLP都在做什么? 「NLP是什么?」
  2. NLP的基础任务都有哪些,以前都有哪些应用场景? 「NLP可以用来做什么?」
  3. 当前大模型时代,NLP在做什么?NLP的基础任务还有什么价值? 「大模型时代的价值?」
  4. 如何 做NLP模型的训练、调优、验证和部署,确保模型在实际场景中的高效性能;「如何做?」

一、核心技术

NLP 技术体系可分为基础层、核心层和应用层,其中核心技术围绕 “语言理解” 和 “语言生成” 两大核心目标展开

1.1 预处理技术

分词

词性标注

命名实体识别

停用词去除

词形还原 / 词干提取

1.2 语义理解技术

词向量表示(Word Embedding)

句法分析(Syntactic Parsing)

语义角色标注(SRL, Semantic Role Labeling)

关系抽取(Relation Extraction)

文本相似度计算

1.3 语言生成技术

机器翻译(Machine Translation, MT)

文本摘要(Text Summarization)

对话系统(Dialogue System)

大语言模型(LLM, Large Language Model)

基于 Transformer 架构的千亿级参数模型,是当前 NLP 技术的巅峰,具备 “通用语言能力”,可支持对话、创作、代码生成、逻辑推理等多任务。代表模型有 GPT 系列、LLaMA、文心一言、通义千问。

1.4 高级技术方向

多模态 NLP
低资源 NLP
可信 NLP

在大模型时代,NLP的基础任务还有什么价值?
NLP 基础任务非但没有被替代,反而成为大模型落地的核心支撑,其价值体现在提升大模型性能、降低落地成本、保障产业级可靠性三个核心维度。
是连接通用大模型与产业场景的 “桥梁”

二、典型应用场景

三、核心项目

Transformer 架构(2017 年,Google)

BERT(2018 年,Google)

LLaMA 系列(Meta)

Hugging Face Transformers 库

四、 NLP 技术的核心价值

提升效率:替代人工完成重复、繁琐的文本处理任务(如审核、摘要、翻译),降低人力成本,提升工作效率。
打破壁垒:解决跨语言沟通障碍,实现信息的全球化传播;打通 “数据孤岛”,让非结构化文本数据转化为可利用的知识。
赋能创新:催生新的产品形态(如智能助手、对话机器人),推动各行业的数字化转型,创造新的商业模式。
辅助决策:通过舆情分析、文本挖掘,为企业和政府提供数据驱动的决策依据,提升决策的科学性和及时性。

五、NLP方向系统介绍

主要围绕以下几方面:基础理论、核心技术、项目实战、工程能力

5.1 基础理论

1.词向量相关

Word2Vec 和One-hot 、 FastText

2.语言模型基础

高频题:什么是语言模型? N-gram模型的优缺点?如何解决数据稀疏问题?
延伸题:困惑度(Perplexoty)的含义? 如何用它评估语言模型的好坏?

3.文本预处理

高频题:中文分词有哪些常用的算法(正向最大匹配、逆向最大匹配、CRF等)?各有什么局限?

5.2 深度学习与预训练模型(核心)

1.Transformer核心

Transformer的整体架构? Self-Attention的计算过程? 为什么需要Multi-Head Attention?

Position Encoding的作用? 为什么不用 RNN/LSTM 而用Transformer? Transformer的优缺点?

2.预训练模型系列

BERT的核心创新点(Masked LM + 下一句预测?) BERT和GPT的区别(Encode-only vs Decoder-only)

工程题: 如何基于预训练模型 做微调(Fine-tuning)? 微调时如何防止过拟合?
什么是Prompt Tuning? 适用于什么场景?

3.下游任务适配

如何用BERT做文本分类、NER、文本匹配? 不同任务的输出层如何设计?
延伸题: 序列标注任务(如NER)和文本生成任务(如机器翻译)的建模差异?

5.3 核心技术

5.4 项目实战&工程能力